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摘要 当前 大 多 数 CD-CAT 有 关 的 研究 都 是 基于 0-1 计 分 的 数据 资料 展开 的 ， 而 在 实际 的 
教育 与 心理 测验 中 ， 还 包含 大 量 称 名 反应 数据 。 本 文 基于 称 名 反应 认 知 诊断 模型 (NR- 
свом) 开发 了 适用 于 称 名 反应 数据 的 CD-CAT (以 下 简称 NCD-CAT)， 并 将 7 $8 0-1 计 分 


CD-CAT 的 选 题 方法 引入 NCD-CAT 中 。 比 较 不 同 


条 件 下 ， 不 同 选 题 方 法 对 被 试 判 准 率 和 


测验 效率 的 影响 。 结 果 表 明 NR PWCDI. NR MPWKL 等 PWKL 系 新 方法 和 NR SHE/MI 


方法 能 较 好 地 适用 于 NCD-CAT， 且 在 大 多 数 条 件 下 优 于 基线 方法 NR_PWKL。 研 究 拓展 


了 称 名 多 级 计 分 CD-CAT 的 选 题 方法 。 
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1. 引言 


认 知 诊断 计算 机 化 自 适应 测验 (CD-CAT; Cheng, 2009) 结合 了 认 知 诊断 评价 CCDA; 


Leighton & Gierl, 2007; von Davier & Lee, 2019) f 


0 计算 机 化 自 适 应 测验 《CAT) 两 者 的 优 


势 〈 罗 照 盛 E 2015; Yu et al., 2019)。 根 据 计 分 方式 的 不 同 ，CD-CAT 可 分 为 0-1 计 分 和 多 


级 计 分 的 CD-CAT。 目 前 多 数 的 CD-CAT 研究 都 是 基于 0-1 计 分 数据 展开 的 。 
然而 在 实际 的 教育 和 心理 测验 中 ， 也 存在 很 多 的 多 级 计 分 项 目 〈 刘 拓 等 , 2015; 王 晓 庆 


等 , 2016)。 根 据 作 答 类 别 (response categories) 之 


间 有 无 顺序 或 等 级 ， 多 级 计 分 项 目 又 可 


分 为 称 名 多 级 (nominal polytomous) 和 顺序 多 级 (ordinal polytomous) 计 分 。 其 中 ， 称 名 
多 级 计 分 数据 常见 于 多 项 选择 题 (multiple choice items, MCI)、 个 性 或 态度 量 表 中 只 反映 不 
同 倾向 并 无 明确 正确 答案 的 题目 中 ， 是 指 多 个 作答 类 别 之 间 相 对 独立 、 无 顺序 或 等 级 之 分 


的 数据 。 称 名 多 级 计 分 数据 可 认为 是 最 一 般 、 测 量 


级 别 最 低 的 数据 类 型 ， 基 于 顺序 或 等 级 


的 多 级 计 分 以 及 0-1 计 分 数据 均 可 看 成 是 称 名 多 级 计 分 的 特例 (Mellenbergh, 1995). 


为 了 能 分 析 并 提取 称 名 反应 数据 中 的 信息 , 太 


Ht 


等 (2017) 将 МЕМ 用 于 构建 可 修改 答案 的 САТ, 
的 修改 作答 均 纳 入 到 临时 的 和 最 终 的 能 力 估计 中 ， 


究 者 们 开发 了 相应 的 称 名 反应 类 模型 。 


在 IRT КЕ К, Воск (1972) 开发 了 称 名 反应 模型 (nominal response model, NRM), Jf 
将 该 模型 用 于 分 析 称 名 计 分 的 多 项 选择 题 。 结 果 表 明 ，NRM 能 够 利用 错误 选项 中 的 信息 ， 
其 能 力 估计 精度 显著 高 于 普通 0-1 计 分 IRT 模型 的 估计 精度 ; 对 于 中 低能 力 被 试 而 言 ， 
NRM 模型 的 能 力 估计 精度 能 够 达到 2 倍 测验 长 度 的 0-1 thoy IRT 模型 的 估计 精度 。Wang 


利用 NRM 将 被 试 的 第 一 次 作答 及 后 续 
从 而 提供 更 多 的 选 题 信息 和 更 准确 的 能 


力 估计 值 。 该 可 修改 答案 的 CAT 方案 正 是 利用 了 称 名 反应 模型 中 各 作答 类 别 是 称 名 计 分 这 
一 特点 。 进 一 步 ，Wang 4 (2019) 对 基于 NRM 的 可 修改 答案 的 CAT 方案 从 理论 上 讨论 


了 其 可 行 性 。 


在 认 知 诊断 的 框架 下 ，Templin 等 (2008) 和 de la Torre (2009) 开发 了 称 名 反应 认 知 
诊断 模型 。 依 据 传统 0-1 计 分 的 认 知 诊断 模型 ， 被 试 只 能 被 归 为 掌握 组 和 未 掌握 组 两 个 类 


别 。 而 在 称 名 反应 认 知 诊断 模型 中 ， 被 试 可 以 被 分 


更 多 的 类 别 ， 从 而 能 够 提高 对 被 试 的 
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分 类 精度 。Templin 5 (2008) 将 对 数 线性 认 知 诊断 模型 (log-linear CDM, LCDM) 进行 称 
名 多 级 化 拓展 ， 开 发 了 NR-DM (nominal response diagnostic model) 及 其 缩减 模型 NR- 
cRUM (nominal response compensatory reparameterized unified model， 关 于 该 模型 的 详细 介 
见 附录 A)。 与 0-1 计 分 cRUM 相 比 ， 使 用 称 名 多 级 计 分 的 NR-cRUM 对 被 试 的 判 准 率 更 
高 。de la Torre (2009) 将 DINA 模型 进行 称 名 多 级 化 拓展 ， 拓 展 后 的 MC-DINA 模型 的 判 
准 率 显著 高 于 DINA 模型 的 判 准 率 ， 原 因 是 MC-DINA 模型 利用 了 干扰 项 中 的 诊断 信息 。 
Baa X (2021) 提出 一 类 非 参 数 化 的 诊断 干扰 项 中 信息 的 方法 。 

在 查阅 了 国内 外 相关 文献 之 后 发 现 ， 仅 有 Yigit (2019) 开发 了 基于 称 名 反应 模型 的 
CD-CAT。 在 该 研究 中 ， 作 者 仅仅 评估 了 一 种 选 题 方法 的 效率 通过 与 0-1 计 分 的 CD-CAT 
相 比 )， 使 用 的 称 名 反应 认 知 诊断 模型 是 MC-DINA 模型 。MC-DINA 模型 是 一 种 非 补偿 模 
型 ， 只 适用 于 属性 间 的 非 补偿 情形 ， 且 由 于 参数 数量 有 限 ， 模 型 不 能 直接 解释 每 个 属性 与 
每 个 作答 类 别 之 间 的 关系 ， 从 而 限制 了 模型 参数 解释 的 一 般 性 〈 罗 有 照 盛 等 , 2020)。 由 于 全 
模型 的 NR-DM 参数 较 多 ， 估 计 这 些 参数 需要 很 大 的 样本 量 ， 所 以 其 缩减 形式 NR-cRUM 
实用 性 更 大 〈 李 瑜 , 2014; Templin et al., 2008)， 故 本 文采 用 NR-cRUM 模型 来 开发 多 级 计 分 
CD-CAT， 将 7 种 常见 的 选 题 方法 拓展 到 适用 于 NR-cRUM 的 诊断 测验 中 ， 并 对 它们 在 不 同 
实验 条 件 下 的 效率 和 精度 进行 综合 比较 。 


2. 基于 称 名 反应 的 CD-CAT 


MR 


2.1 初始 题 

在 CD-CAT 的 初始 题 阶段 ， 研 究 者 提出 随机 选取 的 方法 ;或 给 被 试 随机 指定 一 种 属性 
掌握 模式 〈KS )， 再 利用 选 题 方法 选 出 相应 的 题 〈 高 椿 雷 等 , 2017; Yu et al., 2019). Zheng 
和 Chang (2016) 提出 的 PWCDI 和 PWACDI 选 题 法 可 以 完全 排除 初始 阶段 KS 估计 不 稳定 
的 问题 ， 天 然 地 选 出 符合 “T 阵 法 ”( 涂 冬 波 等 , 2013) 初始 选 题 法 要 求 的 题目 。 为 了 各 选 
题 法 之 间 比 较 的 公平 ， 本 研究 拟 采用 随机 选取 1 题 并 在 各 选 题 法 中 都 使 用 这 一 题 作 为 初始 
题 的 方法 。 
2.2 适用 于 NCD-CAT 的 选 题 方法 

在 0-1 计 分 的 CD-CAT 中 ， 研 究 者 们 提出 了 多 种 选 题 方法 〈 郭 大 等 , 2016; BE 55, 
2021; #1 ^55, 2015; Cheng, 2009; Guo & Zheng, 2019; Kaplan et al., 2015; Wang, 2013; Yu et 
al, 2019; Zheng & Chang, 2016)。 现 有 的 多 级 计 分 CD-CAT 选 题 方法 〈Gao et al., 2020) 3E 
要 从 0-1 计 分 的 CD-CAT 拓展 而 来 ， 本 研究 沿用 这 一 方法 ， 将 传统 CD-CAT 中 效果 较 好 的 
几 种 选 题 方法 拓展 至 NCD-CAT +. 

假设 有 天 个 属性 将 被 试 分 为 C = 2* 个 潜在 类 ， 第 7 BUR b; + 1 RUD (1 个 正确 选项 ， 
个 干扰 项 )。 则 本 研究 所 涉及 的 NCD-CAT 选 题 方 法 介绍 如 下 。 
2.2.1 KL 信息 矩阵 及 其 变 式 

在 介绍 选 题 方法 之 前 ， 先 简要 介绍 KL 信息 矩阵 。KL 信息 矩阵 又 称 D 矩阵 (Henson 
& Douglas, 2005), 2—1 2K x 2K 的 矩阵 〈 天 为 属性 个 数 )， 它 的 每 个 元 素 是 〈 给 定 作答 
反应 条 件 下 ) 两 个 KS 之 间 的 KL 距离 期 望 值 。 计 算 公 式 如 下 : 

P, (X;) 
Day = E, | u 1 
juv ац | og PX ( ) 


CH, Dy 是 给 定 题目 j 的 作答 为 X PF, du 和 av 之 间 KL 距离 的 期 望 值 ， 当 X 是 0-1 TF 


п 


N 


分 时 ，Dh 计算 公式 如 下 : 


= ay 3) Loy) 
Die = Es, hog ICT E » By (x;)log Pen 加 | (2) 
在 NCD-CAT 中 ，X 是 称 名 计 分 的 。 相应 地 计算 D 和 矩阵 (此 时 记 为 NR DO 时 ， 应 该 按照 
每 个 作答 类 别 的 概率 求 期 望 值 ， 即 : 


NR Dy, = Y now? n" (3) 


NR Dj, 矩阵 包含 了 各 个 作答 类 别 区 分 不 同 KS 的 能 力 信息 ， 将 会 比 传统 0-1 计 分 的 D Ж 
阵 包 含 更 多 的 信息 。 本 研究 中 的 PWKL 系列 选 题 法 (NR PWKL, NR PWCDI, 
NR_PWACDI, NR_MPWKL) 都 是 以 NR_D 和 矩阵 为 基础 ， 再 结合 相应 0-1 计 分 CD-CAT 选 
题 法 的 思想 拓展 而 来 ， 下 文 相 同情 况 不 再 袭 述 。 

题目 水 平 的 D 矩阵 能 够 表示 该 题 的 信息 量 ， 有 研究 者 对 D 甜 阵 进行 了 不 同形 式 的 加 权 
求 和 ， 得 到 CDI 和 ACDI 指 标 (Henson & a 2005; Henson et al., 2008 )。 其 中 CDI Æ 
D 和 矩阵 中 的 所 有 元 素 按 两 KS 之 间 的 海 明 距 离 Chamming distance) 进行 加 权 求 平均 的 结果 ， 
而 ACDI 是 将 DD 和 矩阵 中 海 明 距 离 为 1 的 元 素 相 加 后 求 平均 值 ， 计 算 公 式 如 下 : 

h(a,, a) Dr 


CDI; = u -一 4 
= Yun, a) e 


а 


К К 
1 
k=1 k=1 


all relevant cells 


HA, all relevant cells 指 D 矩阵 中 两 KS 的 海 明 距 离 为 1 的 单元 格 。 
2.2.2 NR_PWKL 

NCD-CAT 的 PWKL 指标 〈 以 下 称 NR PWKL) 是 РУКІ, (posterior-weighted KL) 选 
题 法 (Cheng, 2009) 的 称 名 多 级 化 拓展 。PWKL 选 题 法 对 D 和 抑 阵 的 每 个 元 素 按 每 种 KS 的 
后 验 概率 加 权 求 和 ， 得 到 PWKL 指标 。 而 NR PWKL 选 题 法 对 NR. D 矩阵 中 每 个 元 素 进行 
相同 加 权 求 和 ， 计 算 公 式 如 下 : 


5 P(Y;; = y|@i) ze 
NR PWKL;(à;) — J X» log GSS = DAC = y|@;) 

其 中 ， 关 (aclyz) 是 观察 到 作答 向 量 为 yy 时 ， 被 试 的 属性 掌握 模式 是 we 的 后 验 概率 。 
2.2.3 NR_PWCDI fil NR. PWACDI 

Zheng 和 Chang (2016) 遵循 PWKL 的 思想 ， 在 D 矩阵 的 行 和 列 同时 加 入 KS 的 后 验 
概率 ， 构 造 出 PWD НЕЕ Cposterior-weighted D matrix)， 再 按照 CDI 和 ACDI 指标 加 权 的 
思想 对 PWD 和 矩阵 进行 不 同 加 权 处 理 ， 得 到 PWCDI 和 PWACDI 指标 。 类 似 地 ， 本 文 在 
NR D 和 矩阵 的 行 和 列 同时 加 入 后 验 概率 得 到 NR. PWD ERE, BAR 〈7)。 再 根据 两 种 不 同 
的 加 权 思 想 将 NR_PWD 矩阵 和 NR. D 矩阵 加 权 求 均值 后 得 到 NR_PWCDI 和 NR_PWACDI 
指标 ， 即 公式 (8), (9), 


п(а, н] (6) 


P(Y,; = y|à;) 


bj 
NR_PWD,,, = п(а;) хп(а.) х У log (SLE 
jic i c a P(Y;j = у|а.) 


) Pci, -ve 0) 


p h(a;, a.) 1 NR PWDiji. 
Ades h(a, а.) 
1 
NR_PWACDI; = 元 NR Djuy (9) 
all relevant cells 

同 理 ，all relevant cells #4 NR. D 矩阵 中 两 KS 的 海 明 距 离 为 1 的 单元 格 。 
2.2.4NR_MPWKL 

Kaplan “ (2015). Zheng 和 Chang (20160 的 研究 都 指出 ， 在 KL 系列 方法 中 ， 若 仅 
使 用 当前 KS 估计 值 的 后 验 概 率 加 权 ， 不 利于 选 出 最 合适 的 题 。 因 为 当 测 验 较 短 时 ， 当 前 
KS 的 估计 值 通常 都 不 太 准 确 。 除 上 述 PWCDI 类 方法 外 ，Kaplan 等 (2015) 的 MPWKL 77 
法 也 能 很 好 地 解决 这 个 问题 。MPWKL 方法 对 PWKL 指标 按照 各 KS 的 后 验 概率 再 进行 加 
权 求 和 。 本 研究 对 NR_PWKL 指标 按照 KS 的 后 验 概率 再 次 加 权 求 和 ， 得 到 NR MPWKL 
指标 ， 计 算 公 式 如 下 : 


2K ((2K [ bj n 
NR мрик, (а) = > > > jog (ee P(Y; = y|à)n(a,lyo 
y=0 


NR PWCDI; = (8) 


= P(Y; = y|a.) 
5 0-1 计 分 一 样 ， 上 述 4 种 PWKL 系 新 方法 也 是 选择 相应 指标 最 大 的 题目 。 
2.2.5 NR_SHE 


KEKR (Shannon Entropy, SHE) JV HT XE IAA, XS FEL PE rp RHS C Fe 
小 的 题目 ， 使 估计 的 KS 后 验 概 率 分 布 的 不 确定 性 最 小 。 与 SHE 不 同 的 是 ， 计 算 期 望 香农 


c=1 


subo (10) 


NR SHE M. REBAR MESSI Cy + 1 个 ) RACIAL, TREN 
仅 考虑 0 和 1 两 个 作答 类 别 。 计 算 公式 如 下 ; 
bj 2K 
1 
NR SHE = [ya Yea. = y) РИ, = 11 
| 22. ya = lose) (Wa = lye] GD 


其 中 Pr(Y,,, = y|y,) 是 观察 到 前 t 次 作答 的 向 量 为 y.:， 第 t+ 1 题 的 得 分 为 y 的 条 件 概率 ， 
其 计算 公式 如 下 : 


2K 


> Рина = yla) nalady) (12) 
c=1 


其 中 п(ас[у,) 是 被 试 完成 t 道 题目 后 ， 被 试 的 属性 掌握 模式 是 we 的 后 验 概 率 。 
2.2.6 NR. MI 

НЕ (Mutual Information, MD 选 题 法 是 Wang (2013) 提出 的 一 种 更 适用 于 短 测验 
的 选 题 方 法 。 类 似 地 ， 求 NR МІ 时 ， 也 应 该 分 别 按照 by + 1 个 作答 类 别 的 概率 求 MI 的 期 
望 ， 计 算 公 式 如 下 : 


bj 2K 2K 
п(а уь Yer = y) 
NRMI=) |> (пан, Yous cog Te У PO = Уд (acly) | 3) 
y=0 | c=1 dud c=1 


该 方法 选择 题库 中 NR_MI 指标 最 大 的 题目 。 
2.2.7 NR_GDI 


Kaplan “ (2015) 将 GDI (G-DINA discrimination index, GDI) 指标 用 于 CD-CAT 的 选 
题 中 ， 其 中 P, 是 除 第 一 个 选项 外 ， 其 他 选项 (bj 个 ) 的 平均 得 分 。 


2K Bj 
NR GDI = 2: n(a.,ly;) > P(Y,; = y|a.) — P; (14) 
c=1 y=1 
2K bj 
P, = У nay) > PY = ylas) (15) 
c=1 y=1 


与 PWKL 系列 指标 一 样 ，GDI 指标 越 大 ， 表 示 区 分 不 同 KS 的 能 力 越 强 。 所 以 ，NR_GDI 
方法 选择 题库 中 NR. GDI 指标 最 大 的 题目 。 
2.3 曝光 控制 

Zheng 和 Wang (2017) 基于 计算 机 领域 的 二 分 搜索 算法 ， 开 发 了 SDBS 与 DBS 方法 。 
通过 与 已 有 的 控制 题目 曝光 的 方法 СВР, RT, SHTVOR 等 ) 相 比 ， 新 方法 能 够 更 高 效 地 处 理 
好 测验 准确 率 与 曝光 控制 之 间 的 权衡 问题 。 本 研究 聚焦 于 各 选 题 方法 在 被 试 分 类 精度 和 测 
验 效 率 上 的 表现 ， 故 没有 考虑 曝光 控制 的 问题 。 
2.4 参数 估计 方法 

在 CD-CAT 中 有 三 种 参数 估计 方法 ， 分 别 是 MLE, MAP, EAP (Huebner & Wang, 2011). 
其 中 EAP 计算 的 是 被 试 属性 掌握 模式 的 期 望 后 验 概率 ， 是 在 给 定 作答 为 yi 的 条 件 下 ， 将 
所 有 可 能 的 KS 与 其 对 应 的 后 验 概率 相 乘 再 求 期 望 值 AR 16)， 最 后 再 进行 二 分 取 值 转换 。 
( 涂 冬 波 等 , 2017)。 本 研究 采用 的 是 EAP 方法 。 
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2.5 终止 策略 

目前 CD-CAT 的 终止 策略 主要 有 定 长 和 变 长 两 类 。Guo 和 Zheng (2019) 指出 : 变 长 
终止 策略 中 的 Tatsuoka 规则 和 双 标 准 规则 在 属性 个 数 不 同 时 ， 存 在 不 稳定 问题 ， 并 从 信息 
论 的 视角 提出 了 变 长 终止 策略 的 新 方法 。 本 研究 的 重点 是 选 题 方法 的 比较 ， 因 此 终止 策略 
仅 考 虑 定 长 和 最 大 后 验 概率 达到 某 一 固定 精度 的 变 长 策略 (Yu et al., 2019). 


3. 模拟 研究 

为 考察 和 比较 NCD-CAT 不 同 选 题 方 法 的 性 能 ， 本 研究 开展 了 两 项 实验 。 
3.1 实验 一 ， 定 长 NCD-CAT 

实验 一 是 一 个 2 x 4 x 7 的 三 因素 完全 随机 实验 设计 。 自 变量 分 别 是 题目 质量 、 题 长 、 
选 题 方法 。 其 中 题目 质量 有 高 、 低 两 个 水 平 ， 题 长 有 5, 10, 15, 20 四 个 水 平 ， 选 题 方法 有 
NR PWKL, NR PWCDI, NR PWACDI, NR_MPWKL, NR SHE, NR MI, NR GDI 7 种 方法 。 
具体 实验 过 程 描述 如 下 : 
3.1.1 数据 模拟 

被 试 方面 ， 本 实验 假设 5 个 独立 属性 共 32 种 属性 掌握 模式 的 被 试 在 人 群 中 均匀 分 布 ， 
模拟 生成 3200 名 被 试 。 

题库 方面 ， 本 实验 采用 Ма 和 de la Torre (2016)〉 类 似 的 模拟 方法 生成 高 、 低 质量 的 题 
(各 600), Q 矩阵 采用 dela Torre (2009) HJ OERE ILIB). РЕ RIR) 质 
量 的 题目 ， 掌 握 该 题目 所 考察 的 属性 的 被 试 选择 正确 答案 的 概率 为 0.8 (或 0.6); 被 试 选 择 
普 误 答 案 的 概率 按 均 匀 分 布 模拟 。 


[E 


=m dm 


模拟 作答 方面 ， 先 在 (0, 1) 中 生成 一 个 均匀 分 布 的 随机 数 ， 然 后 比较 这 个 随机 数落 在 
A, B, C, D 哪 一 个 累积 作答 概率 区 间 内 ， 就 选择 这 个 选项 作为 答案 。( 例 如 ， 当 某 被 试 选择 
各 选项 的 概率 依次 是 0.1, 0.3, 0.5, 0.1， 则 累积 作答 概率 分 布 为 0.1, 0.4, 0.9, 1， 如 果 随 机 数 
为 0.63， 则 模拟 该 被 试 选择 第 三 个 选项 )。 
3.1.2 评价 指标 

定 长 NCD-CAT 的 评价 指标 包括 模式 判 准 率 (pattern match ratio, PMR). y? 和 测验 重 
55 (test overlap rate, TOR )。 各 评价 指标 的 详细 说 明 见 附录 Co 
3.1.3 实验 一 结果 

实验 一 结果 在 表 1， 附 录 D: 表 D-1， 图 D-1， 图 D-2 +. 


表 1 七 种 选 古方 法 的 模式 判 准 率 、 与 NR_PWKL 比较 的 差 值 


Be 方法 高 质量 低 质量 
(NR-) PMR Difference PMR Difference 
PWKL 0.624 0.335 
PWCDI 0.711 0.087 0.367 0.032 
PWACDI 0.714 0.090 0.373 0.038 
5 MPWKL 0.704 0.080 0.357 0.022 
SHE 0.736 0.112 0.352 0.017 
MI 0.736 0.112 0.352 0.017 
GDI 0.672 0.048 0.322 -0.013 
PWKL 0.917 0.621 
PWCDI 0.948 0.031 0.643 0.022 
PWACDI 0.948 0.031 0.633 0.012 
10 MPWKL 0.948 0.031 0.641 0.020 
SHE 0.951 0.034 0.646 0.025 
MI 0.951 0.034 0.646 0.025 
GDI 0.948 0.031 0.607 -0.014 
PWKL 0.988 0.789 
PWCDI 0.993 0.005 0.798 0.009 
PWACDI 0.993 0.005 0.808 0.019 
15 MPWKL 0.994 0.006 0.803 0.014 
SHE 0.993 0.005 0.808 0.019 
MI 0.993 0.005 0.808 0.019 
GDI 0.993 0.005 0.772 -0.017 
PWKL 0.999 0.888 
PWCDI 0.999 0 0.892 0.004 
PWACDI 0.999 0 0.897 0.009 
20 MPWKL 1 0.001 0.895 0.007 
SHE 0.999 0 0.902 0.014 
MI 0.999 0 0.902 0.014 
GDI 0.998 -0.001 0.874 -0.014 
整体 趋势 GED: 


(1) 随 着 题目 质量 由 低 变 高 ， 各 选 题 方法 的 PMR 都 明显 提高 ， 提 升 效果 在 短 测验 
(5, 10) 中 尤为 明显 。 例 如 当 题 长 为 $ 题 时 ， 各 选 题 法 的 PMR 几乎 提升 了 一 倍 。(2) 
随 着 题 长 的 增加 ， 各 选 题 法 的 PMR 都 有 提高 ， 提 高 的 程度 因 题 长 和 题目 质量 而 异 。 有 具体 
而 言 ， 当 题 长 由 5 题 增加 到 10 题 时 ， 不 管 题目 质量 高 或 低 ， 它 们 的 PMR 都 有 超过 20% 的 
提升 ; 当 题 长 由 10 题 增加 到 15 或 20 题 时 ， 低 质量 题目 NCD-CAT 的 PMR 仍 有 接近 或 超 
过 10% 的 提升 。 相 较 而 言 ， 提 高 题目 质量 比 增 加 题 长 更 能 提高 NCD-CAT 的 判 准 率 。 

各 选 题 方法 与 基线 方法 NR_ PWKL 的 比较 ( 表 D: 
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(1) МВ PWKL 系 新 方法 (NR. PWCDI, NR. PWACDI, NR MPWKL) #0 NR_SHE/MI 
方法 的 PMR 在 所 有 条 件 下 都 高 于 或 等 于 NR PWKL 法 ， 尤 其 是 在 题 长 为 5 和 高 质量 题目 
条 件 下 ; (2) 随 着 题 长 的 增加 ， 其 余 方法 相 较 于 NR_PWKL 法 的 PMR 优势 不 断 减 小 ;这 
一 趋势 与 Zheng 和 Chang (2016) 研究 中 PWCDI, PWACDI 和 MPWKL 方法 的 变化 一 致 ; 
NR_PWCDI 和 NR_PWACDI 5 NR MPWKL 和 NR_SHE/MI 方 法 的 比较 CR 1): 

(1) NR_PWCDI 和 NR PWACDI 方法 与 NR_MPWKL 方法 表现 非常 接近 ， 与 Zheng 
和 Chang (2016) 的 结果 一 致 ， 因 为 这 类 方法 都 是 基于 PWKL 的 改进 ; (2) S SE 

CSHE/MI) 的 PMR 高 于 或 等 于 NR PWKL 系 方法 ; Wang (2013) 指出 ，MI 选 题 法 是 一 
种 在 短 测验 中 表现 较 好 的 方法 。 
NR GDI 方法 在 低 质量 题目 条 件 下 是 7 种 方法 中 表现 最 差 的 ， 而 在 高 质量 题目 条 件 下 
略微 好 于 基线 方法 NR. PWKL. 
WEEEK (TOR) ARAM Cx?) 〈 见 附录 表 D-1): 

(1) NR_GDI 的 TOR 和 卡 方 值 最 大 ， 题 库 安 全 性 较 差 ， NR MPWKL 次 之 ; (2) BR 
NR GDI 方法 外 ， 随 着 题目 质量 的 提升 ， 同 等 题 长 条 件 下 其 它 方法 的 TOR 均 下 降 ， 随 着 题 
长 的 增加 ， 同 等 题目 质量 条 件 下 其 它 方法 的 TOR 均 上 升 ， 上 述 两 点 与 Сао (2020) 的 研 
究 结果 一 致 ; (3) NR_PWCDI 和 NR PWACDI 方法 的 TOR 和 卡 方 值 大 于 NR. PWKL 法 ， 
但 小 于 NR MPWKL 法 ; (4) 相 较 而 言 ，NR_SHE/MI 方法 的 TOR 和 卡 方 值 在 不 同 条 件 下 
变化 较 平稳 。 

不 同类 型 KS 被 试 的 判 准 率 〈 见 附录 图 D-1， 图 D-2): 

实验 一 还 进一步 分 析 了 各 选 题 方 法 对 不 同类 型 KS 被 试 的 判 准 率 。 由 于 所 有 题 长 条 件 
下 其 变化 趋势 一 致 ， 故 仅 列 出 题 长 为 10 这 一 种 情况 。 结 果 表 明 : 
(1) 题目 质量 对 判 准 率 的 影响 较 大 。 题 目 质量 由 高 到 低 ， 各 方法 对 不 同 KS 的 PMR 
整体 下 降 了 30% 左 右 ; (2) 当 题 目 质量 高 时 ，NR_PWKL 对 不 同 KS 的 PMR 较 低 ， 而 当 题 
目 质量 低 时 ，NR_GDI 取代 NR_PWKL 成 为 PMR 最 低 的 选 题 方法 ， 上 述 两 点 在 表 1 中 也 
得 到 印证 。 
3.2 实验 二 : 变 长 NCD-CAT 

实验 二 是 2 x 3 x 7 的 三 因素 完全 随机 实验 。 实 验 二 将 实验 一 的 题 长 因素 蔡 换 成 最 大 后 
验 概率 的 因素 ， 其 余 自 变 量 、 数 据 模拟 和 参数 估计 方法 均 与 实验 一 相同 。 实 验 二 中 最 大 后 
验 概率 分 别 是 0.8, 0.85, 0.9; 终止 条 件 除 了 最 大 后 验 概率 ， 还 增设 一 个 最 大 题 长 为 20 题 的 
条 件 。 

实验 二 的 评价 指标 是 PMR 和 测验 效率 ， 后 者 主要 体现 在 最 大 、 最 小 、 平 均 题 长 及 题 
长 的 标准 差 指标 上 。 
3.2.1 实验 二 结果 

实验 二 结果 在 表 2， 附 录 D: X D-2, 4053, Ë] D-4 中 。 
各 选 题 方法 的 平均 题 长 以 及 与 NR РУКІ, 的 比较 〈 表 2): 

(1) NR PWCDI, NR PWACDI, NR MPWKL, NR SHE, NR MI 选 题 法 在 所 有 实验 条 
件 下 ， 都 比 NR PWKL 的 平均 题 长 更 短 ， 尤 其 题目 质量 高 时 优势 更 明显 ， 差 值 大 于 0.738 
Bi. (2) NR GDI 方法 则 受 题 目 质量 影响 ， 在 高 (或 低 ) 质量 条 件 下 题 长 小 (或 大 ) 于 
NR PWKL; (3) NR PWCDI, NR PWACDI 和 NR MPWKL 三 种 方法 在 所 有 变 长 条 件 下 表 
现 接近 ;与 NR SHE/MI 法 比较 方面 ， 当 终止 规则 较 宽松 或 题目 质量 较 好 时 ，NR_SHE/MI 
的 题 长 更 短 ;， 反 之 前 面 三 种 方法 的 题 长 更 短 。 

题 长 的 其 他 描述 统计 量 汇 总 见 附录 表 D-2。 


表 2 各 选 题 方法 的 平均 题 长 以 及 与 NR_PWKL 比较 的 差 值 


Bik 方法 高 质量 低 质量 
规则 (NR-) Mean Difference Mean Difference 
PWKL 7.108 13.6 
PWCDI 6.249 0.859 13.258 0.314 
PWACDI 6.251 0.857 13.301 0.271 
0.8 MPWKL 6.262 0.846 13.268 0.299 
SHE 6.119 0.989 13.297 0.252 
MI 6.119 0.989 13.297 0.252 
GDI 6.492 0.616 14.227 -0.529 
PWKL 7.72 15.009 
PWCDI 6.822 0.897 14.702 0.284 
PWACDI 6.823 0.896 14.694 0.285 
0.85 MPWKL 6.83 0.889 14.648 0.304 
SHE 6.766 0.953 14.781 0.194 
MI 6.766 0.953 14.781 0.194 
GDI 7.056 0.663 15.737 -0.558 
PWKL 8.394 16.884 
PWCDI 7.549 0.844 16.588 0.24 
PWACDI 7.585 0.808 16.535 0.252 
0.9 MPWKL 7.563 0.83 16.52 0.274 
SHE 7.655 0.738 16.693 0.148 
MI 7.655 0.738 16.693 0.148 
GDI 7.884 0.509 17.653 -0.505 


不 同类 型 KS 被 试 的 平均 题 长 〈 见 附录 图 D-3， 图 D-4): 

实验 二 也 进一步 分 析 了 不 同 KS 类 型 的 被 试 在 各 选 题 方法 下 的 测验 效率 。 由 于 所 有 条 
件 下 其 变化 趋势 一 致 ， 故 仅 列 出 最 大 后 验 概率 为 0.85 这 一 种 情况 。 结 果 表 明 : 

(1) NR_PWKL 对 几乎 所 有 KS 被 试 的 题 长 最 长 ， 第 二 长 的 方法 是 NR_GDI; (2) 
NR SHE/MI 方法 对 所 有 KS 被 试 的 题 长 最 短 ; 这 两 点 发 现 与 表 2 的 结果 是 一 致 的 。(3) B8 
着 被 试 掌握 的 属性 个 数 增 加 ， 所 有 选 题 方法 的 平均 题 长 呈现 阶 跃 式 下 降 ， 下 降 的 拐点 都 出 
现在 属性 个 数 增加 的 地 方 ; 即 在 低 质量 题目 条 件 下 ， 能 够 通过 多 选择 一 些 考察 多 个 属性 的 
题目 给 被 试 ， 以 使 得 测验 效率 有 较 大 提升 ; (4) 在 低 质量 题目 条 件 下 对 于 所 有 KS 的 被 试 ， 
NR GDI 方法 的 平均 题 长 最 长 ， 测 验 效率 最 低 ; NR PWKL 次 之 ， 其 余 方法 差异 不 明显 ; 
这 与 表 2 的 发 现 也 是 一 致 的 。 


4. 总 结 与 展望 


认 知 诊断 评价 以 诊断 被 试 的 认 知 优势 和 劣势 见长 ， 而 CAT 的 优点 是 高 效 、 精 准 地 测量 
被 试 的 能 力 。 结 合 了 两 者 优势 的 CD-CAT 将 会 给 教育 工作 者 带 来 极 大 的 便利 。 然 而 目前 
CD-CAT 应 用 于 实践 还 不 多 ， 主 要 是 还 有 不 少 问题 吸 待 解决 。 本 研究 从 CD-CAT 无 法 充分 
利用 称 名 反应 数据 中 的 信息 入 手 ， 开 发 NCD-CAT 选 题 方法 。 研 究 一 比较 了 各 选 题 方法 在 
不 同 题 长 和 不 同 题目 质量 条 件 下 的 NCD-CAT 表现 ， 研 究 二 对 变 长 条 件 下 各 选 题 方法 的 表 
现 进 行 了 探究 。 结 果 表 明 : (1) NR PWCDI, NR PWACDI 和 NR MPWKL 方法 在 各 实验 
条 件 下 表现 近似 ， 且 一 致 优 于 NR. PWKL 方法 ; NR_SHE/MI 方法 与 上 述 3 种 МЕ РУКІ. 
系 新 方法 相 比 ， 在 短 测验 时 优 于 它们 ， 但 优势 不 大 ; (2) 题目 质量 对 测验 判 准 率 和 测验 效 
率 的 影响 较 大 ， 在 实际 应 用 时 应 该 挑选 高 质量 的 题目 进入 题库 。 研 究 拓展 了 称 名 多 级 计 分 
CD-CAT 的 选 题 方法 。 

本 文 提出 的 NCD-CAT 适用 于 称 名 反应 数据 ， 虽 然 可 用 于 分 析 多 选 题 各 选项 中 的 信息 ， 


旦 其 应 用 范围 仍然 受到 限制 。 后 续 研 究 有 以 下 几 个 方面 值得 进一步 探讨 。(1) 本 文 的 
NCD-CAT 是 以 一 个 特殊 的 认 知 诊断 模型 为 基础 开发 的 多 级 计 分 CD-CAT， 未 来 可 以 考虑 使 
一 般 的 多 级 计 分 认 知 诊断 模型 (Gao et al., 2021). (2) AM NCD-CAT 的 选 题 方 法 都 是 
H 0-1 计 分 的 CD-CAT 拓展 而 来 ， 未 来 可 考虑 开发 针对 多 级 计 分 CD-CAT 特点 的 选 题 方法 。 
例如 Yigit 等 (2019) 使 用 JSD (Jensen Shannon divergence) 指标 作为 基于 MC-DINA 模型 
的 CD-CAT 选 题 方法 ， 未 来 可 将 ISD 法 应 用 于 NCD-CAT 中 ， 以 考察 该 选 题 方法 的 效果 。 
(3) 本 研究 的 实验 条 件 较为 理想 ， 还 有 很 多 实际 的 问题 没有 考虑 进来 ， 例 如 曝光 控制 、 初 
始 阶段 的 选 题 法 、 其 他 变 长 终止 规则 等 ， 相 关 议 题 的 最 新 研究 成 果 值 得 借鉴 。 例 如 ， 未 来 
可 考虑 Zheng 和 Wang (2017) 开发 的 SDBS 与 DBS 方法 ， 以 处 理 好 测验 准确 率 与 曝光 控 
制 之 间 的 权衡 问题 ， 可 利用 Zheng 和 Chang (2016) 提出 的 PWCDI 和 PWACDI 选 题 法 选 
更 合适 的 初始 题 ， 可 结合 Guo 和 Zheng (2019) 提出 的 变 长 CD-CAT 终止 策略 的 新 方法 ， 
仿 验 新 方法 在 不 同 CDM 中 的 稳定 性 。(4) 基于 称 名 反应 数据 的 CDM 最 自然 的 应 用 是 用 于 
提取 多 选 题 干扰 项 中 的 诊断 信息 ， 未 来 可 考虑 比较 不 同 称 名 反应 认 知 诊断 模型 挖掘 干 扰 项 
信息 的 效果 。(5) 本 文 研究 的 测验 数据 是 基于 0-1 属性 、 多 级 计 分 ， 该 类 型 数据 能 够 提供 
更 丰富 的 诊断 信息 。 然 而 在 0-1 计 分 的 框架 下 ， 也 可 通过 属性 多 级 化 的 方式 来 丰富 测验 数 
据 中 的 信息 ， 尤 其 是 当 考 虑 多 级 属性 之 间 的 顺序 时 〈( 夏 梦 连 等 , 2018; Ma, 2021). 

虽然 本 研究 的 结果 表明 基于 NR-cRUM 的 CD-CAT 有 很 好 的 发 展 前 景 ， 但 是 这 仍然 没 
有 充分 发 挥 称 名 反应 模型 的 优点 。 称 名 反应 模型 一 个 非常 重要 的 优点 是 可 以 实现 可 修改 答 
ZHI САТ (Wang et al., 2017, 2019)。 基 于 称 名 反应 模型 、 可 修改 答案 的 CD-CAT 值得 进 一 
步 深 入 研究 。 
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A Comparative Study of Item Selection Methods in CD-CAT 


based on Nominal Response Model 


Zhang Jie’, Luo Zhaosheng’, Yu Xiaofeng, Qin Chunying 
(‘School of Psychology, Jiangxi Normal University, Nanchang, 330022) 


(School of Mathematics and Information Science, Nanchang Normal University, Nanchang 330032) 


Abstract Cognitive Diagnostic Computerized Adaptive Testing (CD-CAT) combines the 
advantages of cognitive diagnosis and CAT, which could improve the efficiency and accuracy of 
CD-CAT. CD-CAT can be divided into two types: dichotomous and polytomous. Presently, the 
majority of researches on CD-CAT are based on dichotomous CD-CAT. However, among the 
practical tests in psychology and education, there are many polytomous items, which can be 
further divided into nominal polytomous and ordinal polytomous items according to whether there 
is an order or grade between every response category. Nominal polytomous items are items whose 
response categories are independent and without orders or grades between every response 
category. Although researchers have developed (ordinal) polytomous CDMs and corresponding 
CD-CAT, few nominal CDMs and CD-CAT are based on nominal responses. 

This study introduces seven commonly used item selection methods in dichotomous CD-CAT 
into NCD-CAT (CD-CAT based on nominal response models). PMR (pattern match ratio) and test 
efficiency index are evaluated under different conditions between these item selection methods. 
Here are details of two simulation studies below. Study 1 compared the performance of 
NR PWKL, NR PWCDI, NR PWACDI, NR MPWKL, NR SHE, NR MI, and NR GDI 
methods under different test lengths (5, 10, 15, 20) and item pool qualities (high and low) in NCD- 
CAT. Results showed that: (1) the PMRs of NR_PWCDI, NR PWACDI, NR MPWKL, NR. SHE, 
and NR MI are higher than or equal to that of МК PWKL, especially in short tests. (2) as test 
length gets longer, that PMR advantage is missing, which is the same as the results of Zheng and 
Chang (2016). (3) compared to test length, item quality has a greater impact on PMR. For 
instance, with item quality descending, the PMR declined about 3096 among all conditions. Study 
2 is an experiment on variable-length NCD-CAT that was conducted to compare the performance 
of each item selection method under the conditions of three maximum posterior probabilities (0.8, 
0.85, 0.9) and two item qualities (high and low). The results showed that: (1)under all 
experimental conditions the average test lengths of NR PWCDI, NR PWACDI, NR MPWKL, 
NR SHE, and NR MI are shorter than that of МК PWKL; the difference is more than 0.738. 
(2)affected by item quality, the average length of NR. GDI is smaller than that of NR PWKL 
under high-quality conditions and larger than it under low-quality conditions. 

To sum up, this study compared the performance of 7 commonly used item selection methods 
of dichotomous CD-CAT in NCD-CAT with different conditions (fixed and variable length). The 
simulation. study showed that under most conditions, the NR PWCDI, NR PWACDI, 
NR MPWKL, NR SHE, and NR MI methods performed well when compared to baseline 
algorithm NR. PWKL. This study has expanded the alternatives of item selection methods in 
NCD-CAT. 


Keywords CD-CAT; nominal responses; NR-cRUM; item selection methods; multiple-choice items 


附录 A 
本 研究 中 NR-cRUM 模型 是 全 模型 NR-DM (nominal response diagnostic model) 的 缩 
减 形式 。NR-DM 是 Templin 等 (2008) 基于 LCDM 和 LCA 模型 ， 融 入 称 名 反应 模型 
СМЕМ) 思想 而 开发 的 称 名 反应 认 知 诊断 模型 。 其 项 目 反 应 函数 如 下 所 示 : 


C I 
I(x;2m; 
es на" 
c=1 mjeMj 


j=1 
其 中 ， 测 验 Q 矩阵 为 = (qij)kxj ， 必 为 属性 个 数 ，J 为 项 目 个 数 ，C = 2% 表示 天 个 属性 
把 被 试 分 成 C AMBLER. njem 表示 对 于 项 目 № c 类 被 试 选择 选项 mj 的 概率 ， 且 有 
Уем Tem, = 1, Vic. по 是 第 с 类 被 试 在 被 试 群体 所 占 的 比例 ， 且 Ean = 1. Mj 是 
项 目 j 所 有 可 能 的 选项 ， 这 里 的 x 是 反应 向 量 ，x = (xu ху). ГС) 是 一 个 指示 函数 ， 当 
xj = mj Bl, ИА 1, 24 у mj 时 ， 它 的 值 为 0. FE mcm, 的 参数 化 形式 : 
exp (4o jm; + Mim hae, q )) 


> exp (4o jm + Apa h(ac, q )) 
mjeM; 


(A-1) 


T 


пет, = Р(Х = т|а,) = (A — 2) 


K K-1 K 
Afmh(ac.q;) = > Aa jam [Cek Ix) + > > Aa prt (скаса кл) + (4-3) 
k=1 k 


=1 l=k+1 

ас = (аса, -.,аск) 是 第 c 类 被 试 的 属性 掌握 模式 。 对 于 项 目 j 的 每 个 选项 都 有 三 类 参 
数 ， 分 别 是 :〈1) BUBB ASQ: (2) 属性 的 主 效应 参数 Xjxm, (3) 属性 与 属性 
1 的 交互 效应 参数 AS erm, ， 以 及 两 个 以 上 属性 的 交互 效应 参数 。 为 了 模型 的 可 识别 性 ， 需 
要 约束 各 类 参数 之 和 为 0， 如 : Уем; Лоту = 0, VJ; Хем; дату = 0, Vj, k 等 。 

由 于 NR-DM 是 基于 LCDM 模型 的 拓展 ， 因 此 它 是 一 个 更 一 般 、 更 广义 的 称 名 反应 认 
知 诊断 模型 。 在 NR-DM 中 ， 若 仅 考 虑 题目 考察 的 所 有 属性 的 交互 效应 ， 则 该 模型 等 价 于 
MC-DINA 模型 ， 是 一 个 非 补偿 模型 ， 若 不 考虑 题目 考察 的 所 有 属性 的 交互 效应 ， 则 该 模 
型 属于 补偿 模型 。 在 实际 应 用 中 ， 考 虑 了 交互 效应 的 NR-DM 需要 估计 的 参数 非常 多 ， 需 
要 非常 大 的 样本 量 才 能 够 进行 准确 的 参数 估计 ， 所 以 NR-cRUM 模型 是 一 个 更 实际 的 选择 ， 
具有 较 大 的 实用 性 〈Templin et al., 2008)。NR-cRUM 模型 的 项 目 反 应 函数 如 下 所 示 : 


K 
exp (ал ВЕ 2. Л j.kmj СЯ) 
пуст; = Р(Х = та) = =——— —— —— 
> exp(Aojm, 2208 Акту (вокан) 


mjeMj 


(4-4) 


RF, Утем, Ат, = 0, Vis Lmjem;Arixm, = 0, Vik. HUR m; 是 项 目 j 的 正确 答案 选 
Di, ЈА, ркт > 0, Vk. 

根据 上 面 的 项 目 反应 函数 可 以 看 出 ， 在 全 模型 和 缩减 模型 中 ， 属 性 定义 在 选项 水 平 上 ， 
属性 的 定义 更 精细 。 且 项 目 参 数 定义 在 题目 和 选项 的 交互 水 平 上 ， 模 型 参数 的 可 解释 性 更 


为 了 更 好 地 理解 NR-cRUM 模型 ， 不 妨 借助 下 面 这 个 数学 推理 题 来 理解 (Templin et 
al., 2008). 
甲 住 在 距离 乙 家 了 米 的 地 方 ， 甲 从 家 出 发 朝 着 乙 家 走 去 ， 某 时 刻 甲 距离 乙 家 还 有 工 米 ， 
H: 此 时 甲 已 经 走 了 多 少 路 程 ? 下 面 哪个 选项 表示 甲 走 过 的 路 程 。( 注 : 各 选项 的 线段 长 度 


为 1 米 ) 


в —— — 
с 4—4 
D. —— 


图 A-1 


这 道 题 考察 了 两 个 属性 : L 识别 一 个 指定 量 的 参照 单位 ，2. 分 数 减法 。 
假定 该 题目 各 选项 的 参数 如 表 A-1 所 示 ， 根 据 公 式 CA-4) 可 
的 被 试 选择 不 同 选 项 的 概率 ， 如 图 A-2 所 示 〈 该 题 正确 选项 为 D)。 


表 A-1 NR-cRUM 模型 题目 各 选项 的 参数 


人 出 不 同属 性 


A B C D 
Лоту l 0.5 0.5 -2 
At jam; -1 -1 0 2 
А јату -1 0 -1 2 


K А-2 NR-cRUM 模型 不 同 KS 的 被 试 选择 各 选项 的 概率 


A B C D 
(0, 0) 0.442 0.268 0.268 0.022 
(0, 1) 0.235 0.387 0.143 0.235 
(1, 0) 0.235 0.143 0.387 0.235 
(1, 1) 0.041 0.068 0.068 0.824 
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NR-cRUM 不 同 被 试 选择 各 选项 的 概率 
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图 A-2 NR-cRUM 模型 下 不 同 KS 的 被 试 选择 各 选项 的 概率 
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图 A-3 cRUM 模型 下 不 同 KS 的 被 试 答对 或 答 错 的 概率 


经 过 上 面 这 个 例子 ， 可 以 看 出 NR-cRUM 模型 对 被 试 选择 每 个 选项 的 概率 都 进行 了 参 
数 化 ， 每 个 选项 都 有 一 套 参 数 ， 根 据 公 式 〈A-4) 可 以 计算 出 被 试 选择 每 个 选项 的 概率 。 
结合 表 A-2 和 图 А-2 可 知 ， 两 个 属性 都 掌握 了 的 被 试 〈1, 1) 有 0.824 的 概率 会 选择 正确 选 
项 D， 而 被 试 〈0, 0) , (0,1) , (1,0) 分 别 有 较 大 概率 选择 A, В, C 选项 ， 即 被 试 会 选择 与 
其 能 力 相 “匹配 ”的 选项 ， 所 以 说 该 模型 能 够 利用 每 个 选项 的 信息 ， 从 而 能 用 更 少 的 题目 达 
到 对 被 试 能 力 更 准确 的 测量 。 相 较 于 传统 0-1 计 分 的 CDM свом», ХИН A-2 和 图 A-3 
可 知 ，NR-cRUM 模型 可 以 根据 被 试 选择 不 同 选 项 ， 区 分 出 被 试 属 于 四 种 KS 中 的 哪 一 种 ， 
而 在 cRUM 模型 中 ， 只 能 将 CL, D 与 其 它 KS 区 分 出 来 。 很 显然 ， 通 过 对 不 正确 选项 的 建 
模 ，NR-cRUM 模型 可 以 最 大 限度 地 获取 选择 题 的 诊断 信息 ， 并 以 此 提高 属性 掌握 模式 的 
估计 准确 性 和 效率 。 
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附录 C 
评价 指标 
判 准 率 指标 有 属性 判 准 率 Cattribute match ratio, AMR) 和 模式 判 准 率 (pattern match 
ratio, РМВ )， 计 算 公 式 如 〈C-1)，(C-2 )。 


N (Giz, aq; 
AMR, = NO = 12, ..., K) (C —1) 


= um Ка, qi) 


PMR (C — 2) 
其 中 K 表示 属性 总 个 数 ，N 表示 被 试 人 数 ，&ik May, TAA A; 和 a; 的 第 K SCR. + 
Qin = ar， 则 称 判 准 属性 К 一 次 ，AMR 的 值 越 大 ， 说 明 对 单个 属性 的 判 准 率 越 高 。@; 和 
Qi 分 别 是 第 i 个 被 试 的 KS 估计 值 和 KS РИН, ча, = a, 时 ， 则 称 判 准 被 试 的 KS 一 次 ， 
PMR 的 值 越 大 ， 说 明 对 被 试 整个 属性 掌握 模式 的 判 准 率 越 高 。 

题库 安全 性 指标 主要 有 y AUN ERAS (test overlap rate, TORO. y? 指标 描述 的 是 理 
想 项 目 上 曝光 率 分 布 与 真实 项 目 上 曝光 率 分 布 之 间 的 差异 ， 其 计算 公式 如 下 : 


DE (w=) 


= (C -3) 

(У) 
Kp /是 题库 大 小 , LEWRKKE, LU 是 均匀 分 布 的 项 目 曝光 率 。er; 是 第 / 个 题 目的 曝 
ЖЖ. yi 指标 越 小 越 好 ， 说 明 题库 使 用 越 均 匀 。 测 验 重 又 率 反 映 的 是 不 同 被 试 调用 相同 题 
目的 比例 ， 其 定义 为 两 个 随机 抽取 的 被 试 作答 相同 题目 的 期 望 数 除 以 题 长 ， 计 算 公式 如 下 ， 


了 
> nx(n-1) 
ј=1 


Lx N x(N-1) 
RP, T; 是 第 j 题 被 调用 的 次 数 。 测 验 重印 率 也 是 越 小 越 好 〔 陈 平 等 , 2011 )。 


TOR = (C—4) 


Mise D 


K D-1 EM TT IA AY НИЕ, UIS Е ТУВА. 
"m 方法 高 质量 低 质 量 

(NR ) PMR TOR Y? PMR TOR x? 
PWKL 0.624 0.121 67.483 0.335 0.174 99.682 
PWCDI 0.711 0.228 132.12 0.367 0.339 198.729 
PWACDI 0.714 0.207 119.071 0.373 0.305 178.192 
5 MPWKL 0.704 0.24 139.379 0.357 0.36 211.268 
SHE 0.736 0.206 119.004 0.352 0.317 185.327 
MI 0.736 0.206 119.004 0.352 0.317 185.327 
GDI 0.672 0.434 255.219 0.322 0.307 179.57 
PWKL 0.917 0.229 127.318 0.621 0.274 154.604 
PWCDI 0.948 0.291 164.595 0.643 0.368 211.092 
PWACDI 0.948 0.282 159.451 0.633 0.341 194.806 
10 MPWKL 0.948 0.296 167.637 0.641 0.386 221.625 
SHE 0.951 0.23 128.057 0.646 0.335 190.999 
MI 0.951 0.23 128.057 0.646 0.335 190.999 
GDI 0.948 0.426 245.786 0.607 0.401 230.914 
PWKL 0.988 0.269 146.449 0.789 0.324 179.775 
PWCDI 0.993 0.345 191.841 0.798 0.381 213.913 
PWACDI 0.993 0.34 189.126 0.808 0.365 204.257 
15 MPWKL 0.994 0.346 192.899 0.803 0.393 221.121 
SHE 0.993 0.256 138.986 0.808 0.342 190.392 
MI 0.993 0.256 138.986 0.808 0.342 190.392 
GDI 0.993 0.417 235.127 0.772 0.435 245.966 
PWKL 0.999 0.291 154.467 0.888 0.359 195.715 
PWCDI 0.999 0.379 207.723 0.892 0.398 219.117 
PWACDI 0.999 0.378 206.622 0.897 0.389 213.382 
20 MPWKL 1 0.381 208.528 0.895 0.407 224.16 
SHE 0.999 0.273 143.646 0.902 0.355 192.85 
MI 0.999 0.273 143.646 0.902 0.355 192.85 
GDI 0.998 0.425 235231 0.874 0.451 250.801 


表 D-2 各 选 题 方法 的 类 


=, 


准 率 和 题 长 的 描述 统计 


终止 方法 高 质量 低 质量 

规则 (NR ) PMR Min Max Mean SD PMR Min Мах Mean SD 
PWKL 0.851 4 20 7.108 1.826 0.811 6 20 13.304 3.741 
PWCDI 0.853 4 18 6.249 1.515 0.813 6 20 12.99 3.706 
PWACDI 0.857 4 14 6251 1.509 0.828 6 20 13.0033 3.756 

08 MPWKL 0.856 4 16 6.262 1.516 0.824 6 20 13.005 3.721 
SHE 0.852 4 15 6.119 1.547 0.823 6 20 13.052 3.709 
МІ 0.852 4 15 6.119 1.547 0.823 6 20 13.052 3.709 
GDI 0.866 4 14 6492 1.32 0.803 6 20 13.833 3.77 
PWKL 0.894 4 20 7.719 1.991 0.841 6 20 14473 3.75 
PWCDI 0.891 4 19 6.822 1.664 0.847 7 20 14.189 371 
PWACDI 0.889 4 15 6.823 1.678 0.857 7 20 14.188 371 

0.88  MPWKL 0.892 4 18 6.83 1.673 0.856 6 20 14.169 3.716 
SHE 0.883 4 17 6.766 1.696 0.857 7 20 14.279 3.734 
MI 0.883 4 17 6.766 1.696 0.857 7 20 14279 3.734 
GDI 0.896 4 15 7.056 1.433 0.833 7 20 15.0831 3.687 
PWKL 0.932 5 20 8393 2101 0.866 7 20 15.872 3.536 
PWCDI 0.926 5 19 7.549 1.831 0.869 7 20 15632 3.564 
PWACDI 0.927 5 19 7.585 1.862 0.874 7 20 15.62 3.56 

09  MPWKL 0.928 5 19 7.563 1.833 0.874 8 20 15.598 3.569 
SHE 0.922 5 18 7.655 1.82 0.881 7 20 15.724 3.56 
MI 0.922 5 18 7.655 1.82 0.881 7 20 15.724 3.56 
GDI 0.927 5 17 7.884 1.594 0.856 7 20 16.377 3.424 
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被 试 属性 掌握 模式 
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图 D-2 低 质量 题目 〈10 EM) 条 件 下 不 同 KS 被 试 的 PMR. 
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= PWKL 一 站 一 PWCDI 一 二 一 PWACDI 一 4 一 MPVWKL 


目 质 量 和 最 大 后 验 概率 0.85 条 


图 D-4 低 题 


